标签【reinforce learning】

【基础知识十六】强化学习

一、任务与奖赏我们执行某个操作a时，仅能得到一个当前的反馈r（可以假设服从某种分布），这个过程抽象出来就是“强化学习”。强化学习任务通常用马尔可夫决策过程MDP来描述：强化学习任务的四 ...